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基于 改进 的 深度 残 差 网 络 的 表情 识别 研究 
何 俊 , 刘 跃 ， 李 倡 洪 ， 沈 津 铬 ， 李 ” 帅 ， 王 京 威 


(南昌 大 学 信息 工程 学 院 , 南昌 330031) 


摘 要 : 提出 了 一 种 基于 改进 的 深度 残 差 网 络 (residual network，ResNet) 的 表情 识别 算法 。 采 用 小 卷 积 核 和 深 网 
络 结构 ， 利 用 残 差 模块 学 习 残 差 映 射 解决 了 随 着 网 络 深 度 的 增加 网 络 精度 下 降 问 题 ， 通过 迁移 学 习 方法 克服 了 因数 
据 量 不 足 导 致 训练 不 充分 的 缺点 ; 网 络 架 构 使 用 了 线性 支持 向 量 机 《SVM) 进行 分 类 。 实 验 中 首先 利用 ImageNet 
数据 库 进行 网 络 参 数 预 训练 ， 使 网 络 具 有 良好 的 提取 特征 能 力 ， 根 据 迁 移 学 习 方 法 ， 利 用 FER-2013 数据 库 以 及 扩 
充 后 的 CK+ 数 据 库 进行 参数 微调 和 训练 。 该 算法 克服 了 浅 层 网 络 需 要 依靠 手工 特征 ， 深 层 网 络 难以 训练 等 问题 ， 在 
CK+ 数 据 库 以 及 GENKI-4K 数据 库 上 分 别 取得 了 91.333% 和 95.775% 识 别 率 。SVM 在 CK+ 数 据 库 的 分 类 效果 较 
Softmax 提高 了 1% 左右 。 
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Research on expression recognition based on improved deep residual network 
He Jun, Liu Yue, Li Changhong, Shen Jinming, Li Shuai, Wang Jingwei 


(School! of Information Engineering, Nanchang University, Nanchang 330031, China) 


Abstract: This paper proposed an improved residual network (ResNet) expression recognition algorithm. The algorithm 
used small convolution kernels and a deep network structure to solve the problem of accuracy reduction with the increase of 
depth by the residual module. The experiment overcomes the shortcoming of insufficient data through transfer learning, 


which can effectively prevent overfitting. The network architecture uses a linear support vector machine (SVM) for 
classification. The experiment used the ImageNet database to pre-train network parameters to have an excellent ability to 
extract feature. According to transfer learning, the algorithm used the FER-2013 database and the expanded CK+ database 
to fine-tune and train network parameters, and overcame the problem that shallow networks rely on manual features and 
deep networks are difficult to train. The results Show the recognition rates is 91.333% and 95.775% on the CK+ database 
and the GENKI-4K database, respectively. The classification accuracy of SVM in CK + database is about 1% higher than 
that of Softmax. 

Key words: deep learning; residual network; facial expression recognition; transfer learning; support vector machine 


5 0 引言 象 就 越 来 越 明显 ,精度 迅速 的 下 滑 。 但 是 浅 层 网 络 又 无 法 明显 
‘ 机 提升 网 络 的 识别 效果 启 。 

CS 传统 的 表情 特征 提取 方法 大 多 依赖 手工 设计 的 特征 ， 如 2015 年 ， 何 凯 明 等 人 提出 了 残 差 网 络 5 该 网 络 不 仅 解 
LBP、SIFT 等 , 不 仅 设计 困难 、 无 法 保证 这 些 特征 的 最 优 性 ， 决 了 这 个 问题 ,而 且 较 其 他 模型 识别 效果 更 优秀 。 受 此 启发 ， 
而 且 无 法 提取 图 像 的 高 阶 统计 特征 。 于 是 研究 者 们 开始 利用 本 文 提 出 一 种 基于 残 差 网 络 的 改进 算法 ， 通 过 深度 残 差 网 络 
深度 学 习 进 行 表情 识别 。 目 前 深度 神经 网 络 已 经 被 证 明 在 图 与 支持 向 量 机 (support vector machine，SVMJ)IG9 相 结合 实现 
像 、 语 音 、 文 本 领域 具有 挖掘 数据 深层 潜在 的 分 布 式 表达 特 对 人 脸 表 情 的 识别 ,该 算法 不 依赖 任何 表情 特征 , 通过 深层 网 
征 的 能 力 。 其 中 ， 卷 积 神经 网 络 (CNN) 用 于 识别 位 移 、 缩 络 提取 表情 的 深层 特征 。 实 验 中 使 用 ResNet-50 模型 ， 实 验 
放 及 其 他 形式 扭曲 不 变性 的 二 维 图 形 的 效果 尤为 突出 并 广泛 中 利用 数据 增 广 技术 以 及 迁移 学 习 使 网 络 得 到 充分 的 训练 。 
应 用 于 图 像 识 别 与 分 类 领域 0。CNN 的 特征 提取 层 通过 训 首先 利用 经 MTCNN(Multitask Cascaded Convolutional 
练 数 据 隐 式 地 进行 学 习 ， 避 免 了 显示 的 特征 抽取 。 但 想 要 利 Networks) 00 对 数据 进行 预 处理 ， 利 用 非 表 情 数据 库 对 网 络 
用 深度 卷 积 神经 网 络 完成 面部 表情 识别 任务 ， 需 要 大 量 的 训 进行 预 训练 ， 然 后 利用 表情 数据 进行 网 络 的 参数 微调 ， 得 到 
练 数据 来 训练 模型 的 参数 。 由 于 表情 识别 数据 库 远 远 不 能 满 最 终 的 模型 参数 。 为 了 测试 网 络 的 可 行 性 ， 本 文 对 比 实验 了 
足 网 络 参 数 训练 的 要 求 ， 所 以 目前 深度 学 习 表 情 识别 算法 多 InceptionV4，VGG 以 及 ResNett+Softmax， 经 测试 训 乡 

是 深度 学 习 网 络 和 表情 特征 相 结 合 的 方法 。 深 度 学 习 网 络 的 本 文 算法 均 优 于 其 他 网 络 和 传统 方法 的 效果 。 

深度 对 最 后 的 分 类 和 识别 的 效果 有 着 很 大 的 影响 。 研 究 发 现 

随 着 网 络 深度 的 增加 ,系统 精度 得 到 饱和 之 后 , 梯度 消失 的 现 
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ResNet 较 传 统 卷 积 字 
就 是 在 标准 的 前 馈 卷 积 网 络 上 ,每 两 


经 网 络 而 言 引入 了 残 差 块 结构 ， 也 


层 或 三 


层 一 个 跳跃 连接 ， 
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的 残 差 。 网 络 结构 中 使 用 3X3、1X1 的 小 卷 积 核 ,网 络 更 深 。 
1X1 的 滤波 器 减少 特征 映射 的 个 数 ， 可 以 有 效 地 减少 网 络 参 
数 ， 提 高 网 络 学习 速 率 。 网 络 结构 如 图 1 所 示 , 其 中 Softmax 
为 ResNet-50 分 类 器 ，SVM 为 改进 残 差 网 络 分 类 器 。 


每 个 跳跃 连接 就 产生 一 个 残 差 块 ， 卷 积 层 预测 加 上 输入 张 量 
Eom Conv2 x 
Conv3_x Conv4 x Conv5_X 
输入 
医 \ | 残 差 块 残 差 块 残 差 块 残 差 块 
一 | 郑 >| 人 | Le Pp@ >@yy P| Le Lb 4 >@yy | Le La 4 »@V> P| Le >e_>ey> 
8 积 
ee X3 X4 X6 X3 
泊 2 
Softmax Ex, 
接 
图 1 ResNet-50 结构 图 
Fig.1 Structure of ResNet-50 
1.1 残 差 块 求 得 反 向 过 程 梯度 为 
残 差 块 结构 如 图 2 所 示 。 Bloss _ Oloss 65Co) 
ar OH(x) Ox G3) 
x Oloss Oloss 8 a 
On -0 人 
s ol = | 
卷 积 层 1x1 Be 表示 损失 函数 到 达 的 梯度 ， 由 式 〈4) 可 以 看 出 残 


卷 积 层 3x3 


F(x)+x 


名 


2 残 差 块 结构 


加 


Fig.2 Structure of residual block 


残 差 块 跳跃 结构 增加 一 个 恒 等 映 射 即 x， 经 过 卷 积 
后 输出 为 F(x)， 激 活 函 数 采用 


算 


了 网 络 深度 带 来 
路 径 中 的 流动 。 
高 训练 速度 。 将 


的 梯度 发 散 问题 ， 促 进 


大 | 


ReLu， 


了 梯度 在 反 向 传播 中 


= 
云 运 


缓解 


ReLU 的 使 ) 


此 ， 在 训练 网 络 时 利 月 


H (x) 假设 为 | 


几 个 堆 登 


日 ReLU 可 以 有 效 提 


层 《〈 残 差 网 络 采 用 


个 堆 车 层 ) 匹 配 的 基础 映射 ,用 x 表示 这 些 第 一 层 的 输入 。 
将 原始 所 需要 学 的 函数 H(x) 转 换 成 F(x)+ x。 即 输出 
H(x)=x+F(x) (1) 
可 以 推广 到 由 浅 层 1 到 深层 工 的 学 习 特 征 为 
HO = tS FY) (2) 


差 梯度 需要 经 过 带 有 权重 的 层 ， 而 不 是 直接 传递 过 来 ， 有 1 
的 存在 也 不 会 导致 梯度 消失 ， 所 以 残 差 学 习 会 更 容易 。 
从 式 (1) 可 以 看 出 如 果 前 面 层 已 经 达到 一 个 最 优 的 函数 ， 
那 下 一 层 就 是 没有 必要 的 了 ，ResNet 通过 这 种 跳跃 结构 ， 将 
优化 目标 从 一 个 等 价 映射 变 为 逼近 零 了 ， 使 得 优化 问题 变 得 
很 简单 。 通 过 这 种 方式 就 可 以 解决 网 络 太 深 难 训练 的 问题 。 
残 差 网 络 使 得 前 馈 式 / 反 向 传播 算法 非常 顺利 进行 , 使 得 优化 
较 深层 模型 更 为 简单 。 需 要 指出 的 是 这 个 残 差 块 往往 需 
层 以 上 ， 单 单一 层 的 残 差 块 并 不 能 起 到 提升 作用 。 
当 输入 与 输出 的 维度 一 样 时 ， 无 须 做 其 他 处 理 ， 两 者 相 
加 即 可 ， 但 当 两 者 维度 不 同时 ， 输 入 要 进行 变换 以 后 去 匹配 
输出 的 维度 ， 主 要 经 过 两 种 方式 : a) 用 zero-padding 去 增加 
维度 ， 此 时 一 般 要 先 做 一 个 下 采样 ， 这 样 不 会 增加 参数 ; b ) 
用 1X1 卷 积 来 增加 维度 , 这 样 会 增加 参数 , 也 会 增加 计算 量 。 
1.2 设计 原则 
ResNet 主要 是 受 VGG 网 络 0 启发 , 主要 采用 3X3,1X1 
滤波 器 ， 遵 循 两 个 设计 原则 : a) 对 于 相同 输出 特征 图 尺寸 ， 
卷 积 层 有 相同 个 数 的 滤波 器 ;:b) 如果 特 征 图 尺寸 缩小 一 半 ， 
滤波 器 个 数 加 倍 以 保持 每 个 层 的 计算 复杂 度 。 在 遵循 在 以 上 
的 设计 原则 的 基础 上 ， 本 文 增 加 了 “跳跃 连接 ”。 需要 指出 ， 
这 个 网 络 与 VGG 相 比 ， 滤 波 器 要 少 /复杂 度 要 小 。 
1.3 分 类 器 设计 
大 多 数 的 深度 学 习 方法 使 用 Softmax 来 进行 分 类 。SVM 
分 类 器 作为 一 种 具有 较 强 泛 化 能 力 的 通用 学 习 算 法 ， 被 广泛 
应 用 于 图 像 识别 领域 并 取得 良好 的 效果 。 由 于 SVM 分 类 器 
对 大 数据 高 维特 征 的 分 类 支持 较 好 ， 本 文 使 用 L2-SVM 的 
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标 训练 深度 神经 网 络 进行 分 类 。 通 过 反 向 传播 来 自 顶层 线性 为 了 图 片 数 据 更 好 的 适应 ResNet， 提 高 识别 效率 ， 图 片 
SVM 的 梯度 来 学 习 较 低层 权重 ,为 了 验证 本 文 算法 的 有 效 性 ，” 均 经 过 MTCNN 算法 进行 人 脸 裁 前 ， 并 归 一 化 为 224 X224。 
选择 SVM 分 类 器 和 Softmax 分 类 器 对 进行 对 比 实验 。 实验 中 总 共 训 练 七 种 表情 ， 即 生气 、 厌 恶 、 恐 惧 、 开 心 、 伤 

本 实验 采用 LIBSVM 工具 [2 实现 与 残 差 网 络 的 连接 , 实 。 心 、 惊 讶 和 中 性 。 网 络 训练 总 共 分 为 两 个 阶段 (图 3): a) 利 


现 表情 的 7 分 类 。LIBSVM 是 基于 支持 向 量 机 实现 的 开源 库 ， 用 Imagenet 数据 库 进 行 参数 预 训 练 ;b) 通 过 迁移 算法 
主要 用 于 分 类 (支持 二 分 类 和 多 分 类 ) 和 回归 ,支持 Ct+、Java、 ”FER-2013 数据 库 和 CK+ 库 进行 参数 微调 。 在 经 过 上 述 两 个 
MATLAB、Python 等 多 种 开发 语言 LIBSVM 具有 操作 简单 、 训练 阶段 后 ， 对 残 差 网 络 进 行 性 能 测试 。 
易于 使 用 、 快 速 有 效 、 且 对 SVM 所 涉及 的 参数 调节 相对 较 2.1 数据 库 
少 的 特点 。 ImageNet 数据 集 是 目前 深度 学 习 图 像 领 域 应 用 得 非常 
i 多 的 一 个 领域 ， 关 于 图 像 分 类 、 定 位 、 检 测 等 研究 工作 大 多 
2 ”基于 ResNet 的 表情 识别 基于 此 数据 集 展开 .Imagenet 数据 集 拥有 超过 1400 万 幅 图 片 ， 
于 模型 参数 较 多 ， 为 满足 模型 参数 训练 的 需要 ， 引 入 涵盖 20000 多 个 类 别 ， 其 中 有 超过 百 万 的 图 片 有 明确 的 类 别 
迁移 学 习 。 本 文 主要 选用 四 个 数据 库 : 大 量 图 片 数 据 的 标注 和 图 像 中 物体 位 置 的 标注 。 它 广泛 应 用 于 计算 机 视觉 领 
ImageNet 数据 库 031〈 预 训练 )、FER-201304 (训练) 以 及 域 的 研究 论文 中 ， 几 乎 成 为 了 深度 学 习 图 像 领 域 算法 性 能 检 
CK+ (extended Cohn Kanade dataseD 数 据 库 05《〈 训 练 测试 )、 验 的 “标准 ”数据 集 。 本 文 利用 该 数据 训练 网 络 参数 ， 使 其 具 
GENKI-4KU9 (测试 )。 有 良好 提取 特征 能 


ImageNet 数 据 库 


Step 1 
预 训练 


tt 


ResNet 


Step 2 
微调 


测试 
数据 


ResNet 


640x490 224x224 


图 3 ResNet-50 训练 流程 图 
Fig.3 The training process of resnet-50 

FER-2013 数据 库 是 Kaggle 人 脸 表 情 分 析 比 赛 提供 的 
个 数据 集 。 数 据 库 中 包含 35887 张 带 表 情 标签 的 图 片 ， 包 含 
生气 、 厌 恶 、 恐 惧 、 高 兴 、 悲 伤 、 惊 讶 和 正常 七 种 类 别 的 图 
像 ， 数 据 库 图 片 大 多 来 自 网 络 ， 其 中 包含 人 脸 角度 ， 光 照 环 
境 等 ,并 且 很 多 图 像 都 有 手 、 头 发 和 围巾 等 遮挡 物 的 遮挡 。 
CK+ 表 情 数据 库 是 包含 的 人 脸 表情 是 由 123 人 共 593 个 
由 自然 到 高 峰 的 表情 序列 。 其 中 总 共 也 包含 了 8 种 基本 的 表 
情 : 生气 、 茂 视 、 高 兴 、 悲 伤 、 惊 奇 、 讨 厌 、 害 怕 、 中 性 。 
本 实验 只 选择 其 中 七 种 表情 进行 识别 。 选 择 每 个 有 标签 的 表 


情 序列 3 至 5 张 作 为 数据 ， 其 中 选取 训练 〈 测 试 ) 图 片 生气 图 4 CK+ 数 据 库 预 处 理 

200 (20) 张 ， 厌恶 250 (40) 张 、 丽 惧 150 (20) 张 、 开心 Fig.4 CK+ database preprocessing 

300 (45) 张 、 伤 心 150 (20) 张 、 惊 讶 350 (35) 张 和 中 性 使 用 公开 数据 库 GENKI-4K 来 进行 模型 泛 化 能 力 测 试 ， 
260 (30) 张 ， 总 共 1600 (210) 张 。， 实 验 在 CK+ 数 据 库 选 ” 该 数据 库 包 含 4 000 张 人 脸 照 片 , 这 些 照 片 存在 了 各 种 复杂 


用 表情 使 用 MTCNN 对 数据 库 进 行人 脸 裁剪 ， 然 后 利用 数据 “的 变化 ， 包 括 年 龄 、 肤 色 、 种 族 、 姿 势 、 光 照 和 环境 等 。 在 
增 广 技术 (翻转 、 亮 度 调节 等 操作 ) 扩充 数据 至 原 数 据 的 12 这些 图 片 中 ， 有 2162 张 照 片 被 标注 为 微笑 ， 而 有 1 838 张 
赂 ， 此 外 对 每 张 训练 数据 〈 测 试图 片 不 使 用 此 操作 ) 进行 十 照片 被 标注 为 非 微 笑 。 不 同 于 其 他 一 些 在 实验 室 中 采集 的 数 
字 切 割 ， 即 25600 (2268) 张 图 片 ,如 图 4 所 示 。 据 集 ， 该 数据 集 可 以 很 好 的 反映 在 现实 生活 中 遇 到 的 各 种 各 
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样 的 具有 挑战 性 的 笑脸 识别 问题 。 表 2 不 同 算法 在 CK+ 数 据 库 的 对 比 结果 
2.2 迁移 学 习 Table 2 The accuracies of different algorithms in CK+ database 
迁移 学 习 (transfer learning) 旨 在 使 用 源 领 域 中 的 知识 去 算法 识别 率 〈%) 
改进 对 于 目标 领域 的 预测 函数 中 ， 其 核心 是 将 不 同 领域 的 CNN+ADIS 84.55 
知识 共享 。 表 1 对 比 介 绍 了 不 同 的 迁移 学 习 方 法 和 传统 机 器 CSPL+SVM09 89.89 
学 习 方 法 。 LBP+CNND0l 84.4 
表 1 迁移 学 习 与 传统 机 器 学 习 GB+DBNs+SAER! 92.46 
Table ] Transfer Learning and Traditional Machine Learning LBP/VAR+DBNI™ 91.40 
领域 源 领域 与 目标 域 ” 源 任务 与 目标 任务 本 文 算法 91.33 
传统 机 器 学 习 相 所 相 所 表 3 不 同 算法 在 GENKI-4K 上 的 对 比 结果 
归纳 式 迁 移 相同 相关 Table 3 Comparison of different algorithms on GENKI-4K 
迁移 学 习 ”无 监督 迁移 相关 相关 算法 识别 率 (%) 
直 推 式 迁 移 相关 相同 HOG+ELMP3 88.50 
于 本 文 训练 使 用 的 数据 库 较 为 复杂 ， 为 了 提高 和 优化 LBP/Gray/Gabor+CRFC 91.14 
模型 的 性 能 ， 实 验 利 用 迁移 学 习 的 方法 来 训练 模型 。 首 先 在 GaborHDAED3l 90.75 
上 百 万 的 非 人 脸 表 情 样本 (来 自 ImageNet 数据 集 图 片 分 类 数 本 文 算法 95.78 


据 ) 预 训练 本 文 的 深度 残 差 网 络 ， 利 用 人 
(FER-2013) 对 整个 网 络 参 数 微调 ， 得 到 表情 识别 网 络 ， 最 


俭 表情 数据 


后 利 | 


表情 数据 (CK+ 数 据 库 ) 对 网 络 进行 训练 ， 需 要 指出 


的 是 由 于 CK+ 数 据 库 数 据 较 少 , 不 能 满足 训练 参数 调节 的 需 


要 ， 所 以 在 最 后 的 训练 过 程 中 保持 特征 提取 层 结构 不 变 ， 仅 


对 原 表情 识别 网 络 中 的 全 连 


层 与 分 类 层 的 参数 进行 训练 ， 


使 修改 后 的 网 络 适用 于 人 伶 表 情 识别 任务 。 在 表情 识别 和 图 


片 分 类 等 相关 任务 中 ， 


模型 提取 的 特征 具有 良好 的 通用 性 ， 


在 相关 任务 中 都 能 够 取得 良好 的 效果 。 因 


式 迁 移 学 习 方法 。 
3 ”实验 结果 与 分 析 


此 ， 本 文采 用 归纳 


为 了 验证 算法 较 其 他 算法 的 特点 ， 实 验 对 比 了 本 文 算法 


与 Inception V4、ResNettsoftmax、VGG 
果 。 识 别 效果 如 图 5 所 示 。 


准确 率 (Accarcy) 
1.0 


四 种 网 络 的 识别 效 


一 一 ResNet+SVM 
一 一 ResNet+softmax 
一 一 Inception v4 
= Ve@ 


0 100000 200000 


图 5 


300000 
步 长 (Step) 


不 同 网 络 的 识别 效果 


Fig.5 Recognition accuracy of different networks 


从 图 中 可 以 看 出 ResNet 网 络 要 明显 优 于 其 他 网 络 , 使 用 


SVM 分 类 效果 要 优 于 Softmax 的 分 类 效果 ， 


是 高 了 约 1%。 


为 了 进一步 评估 实验 结果 ， 


2 显示 了 不 同 算法 在 CK+ 和 GENKI-4K 的 对 比 


与 其 他 方法 进行 了 对 比 。 表 


结果 。 


为 了 评估 模型 的 泛 化 能 力 ， 用 


训练 好 的 模型 对 


下 


CGENKI-4K 笑脸 表情 数据 库 进 行 测试 
比 ， 如 表 3 所 示 。 


与 其 他 算法 进行 对 


实验 结果 表明 ,本 文 提 出 的 基于 ResNet+SVM 算法 的 识 


别 率 要 优 于 传统 的 表情 识别 算法 。 较 结合 手工 特征 的 深度 学 


习 算法 ， 本 文 算法 避免 了 复杂 的 显 式 特征 提取 ， 且 识别 率 要 
优 于 


部 分 深度 网 络 。 证 明了 该 算法 的 可 行 性 和 有 效 性 ， 在 表 
情 识别 方面 具有 很 好 的 泛 化 能 
4 ”结束 语 


本 文 提出 了 ResNet 结合 SVM 的 算法 解决 了 卷 积 神经 网 


络 的 识别 精度 会 随 着 网 络 深度 下 降 这 个 问题 ， 大 大 地 增加 了 
网 络 的 深度 ， 同 时 减少 了 网 络 的 参数 ， 这 样 不 仅 提高 了 网 络 


的 识别 能 力 并 且 提 高 了 网 络 的 速度 .SVM 的 引入 有 效 的 提高 
了 识别 效率 。 不 同 于 在 表情 识别 中 其 他 深度 学 习 算 法 依赖 人 


脸 表情 特征 ， 本 算法 通过 利 ) 
但 本 文 算法 亦 有 不 足 之 处 ， 本 实验 的 重点 工作 集中 在 RetNet 
与 SVM 的 结合 上 ， 并 未 对 不 同 SVM 的 实验 效果 进行 验证 。 


深度 网 络 直接 提取 高 阶 特征 。 


未 来 的 工作 将 集中 在 不 同 的 SVM 分 类 器 对 于 实验 的 影响 。 
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